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HEINRICH-HERTZ- INSTITUT FOR NACHRICHTENTECHNIK BERLIN GMBH 



Patentansprliche 



I.J Verfahren zur Verbesserung der Wiedergabequalitat bandbegrenzt verfugbarer 
Sprache unter Verwendung von Zusatzi information, die mit Hilfe des verfligba- 
ren Signals bestimmt wird, gekennzeichnet durch folgende Verfahrensabschnitte 

- aus Mustern des verfligbaren Sprachsignals werden Parameter X gewonnen; 

- von diesen Parametern X. werden Abstande * k zu Parametern A k bestimmt 
- die Parameter A^ liegen von jeweils einem eine Kqui valenzklasse von 
Lauten bandbegrenzter Sprache charakterisierenden Prototyp abgespeichert 
vor; 

- den Parametern A^ entsprechende Parameter B^ werden abgerufen - auch die 
Parameter IB k liegen von jeweils einem eine flquivalenzklasse von Lauten 
charakterisierenden Prototyp abgespeichert vor, jedoch von Sprache mit 
dem fiir die vorgesehene Wiedergabe erforderlichen Spektrum; 

- unter BerLicksichtigung der Abstande ©c^ zwischen den Parametern X^ und 
den Parametern A^ werden die Parameter _B k zur Bildung der im verfligba- 
ren Sprachsignal fehlenden spektralen Information herangezogen. 



2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB bei der Gewinnung 
der Parameter ein zusatzliches Fehlersignal gebildet und dieses Fehler- 
signal bei der Bildung der im verfligbaren Sprachsignal fehlenden spektra- 
len Information mitherangezogen wird. 



3. Verfahren nach Anspruch 1 Oder 2, dadurch gekennzeichnet, daB abhangig von 
dem Verhaltnis der Energien in Spektralbereichen des verfligbaren Sprachsig- 
nals die gebildete spektrale Information und das verfligbare Sprachsignal 
fiir die wiederzugebende Sprache zusammengefaBt werden. 
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4. Verfahren nach einem der Anspruche 1 bis 3, dadurch gekennzeichnet, daB 
die Parameter _X, und j$ k der Sprachsignale Energien in spektralen Kana- 
len sind. 

5. Verfahren nach einem der Anspruche 1 bis 3, dadurch gekennzeichnet, daB 
die Parameter X.5 A k und ji^ der Sprachsignale Pradiktor- oder Reflexions- 
kpeff izienten sind. 

6. Verfahren nach einem der Ansprliche 1 bis 5, dadurch gekennzeichnet, daB 
die abgerufenen Parameter^ mit zunehmenden Abstandeno< k fiir die Bildung 
der im verfugbaren Sprachsignal fehlenden spektralen Information mit liber- 
proportional abnehmenden Anteilen herangezogen werden. 

7. Verfahren nach einem der Anspruche 1 bis 6, dadurch gekennzeichnet, daB 

die Verbesserung der Wiedergabequal itat der bandbegrenzt verfligbaren Sprache 
in Echtzeit erfolgt. 
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HEINRICH-HERTZ- INSTITUT FOR NACHRICHTENTECHNIK BERLIN GMBH 

Verfahren zur Verbesserung der , Wiedergabequal itat bandbegrenzt verfligbarer 
Sprache 

Die Erfindung bezieht sich auf ein Verfahren zur Verbesserung der Wiedergabe- 
qual itat bandbegrenzt verfligbarer Sprache unter Verwendung von Zusatzinforma- 
tion, die mit Hilfe des verfligbaren Signals bestimmt wird. Mit fortschrei ten- 
der technischer Entwicklung wachsen die Quali tatsanforderungen, so auch an Me- 
dien, mit denen Ubertragene Sprache wiedergegeben wird. Darliberhinaus ist es 
wirtschaftlich bedeutsam, wenn Bandbreite bei der Obertragung von Sprache ohne 
wesentlichen Qualitatsverlust bei der Wiedergabe eingespart werden kann, weil 
sich bei gegebener Breite eines Gbertragungsbandes die dort unterzubringende 
Kanalzahl entsprechend erhohen laBt. In manchen Fallen, z.B. beim beweglichen 
Landfunk, liegt hierin eine vorteilhafte Mbglichkeit flir eine Kapazitatsaus- 
weitung. 

Die Einsparung von Bandbreite ohne wesentliche Minderung der Wiedergabequali- 
tat wird allgemein durch jeweils gegensinnig wirkende MaBnahmen auf der Sende- 
und auf der Empfangsseite herbeigefiihrt. Dazu wird senderseitig die Redundanz 
reduziert und z.B. mit Vocoderverfahren, mit adaptiver Differenz-Puls-Code- 
Modulation (ADPCM) , mit Subbandcodierung oder auch mit Modulationsverfahren 
im analogen Bereich gearbeitet. Voraussetzung hierbei ist der Zugriff auf den 
Sender, so daB derartige Verfahren - falls nicht ein ausgewahltes Verfahren in 
sehr groBem Umfang Einflihrung findet - auf regional und/oder anwendungstechnisch 
eng begrenzte Gebiete beschrankt bleiben miissen. 

Bei der der Erfindung zugrundeliegenden Aufgabenstellung wird davon ausgegangen, 
daB ein solcher Zugriff zur Sendeseite nicht besteht, die Verbesserung der Wie- 
dergabequal itat bandbegrenzt verfligbarer Sprache also all ein empfangsseitig er- 
folgert muB. Das bedeutet, die Grenzen des Bandes beim empfangenen Signal konnen 
in weiten Bereichenvariieren 9 die flir die Verbesserung der Wiedergabequal it'at zu 
treffenden MaBnahmen also in mehr oder weniger groBem Umfang erforderlich sein, 
urn insgesamt einen mbglichst geringen Verlust an Silbenverstandlichkeit und auch 
an NatUrlichkeit zu erzielen. 
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Ein Teil dieser Probl ems tell uhgen ist bekannt (RLE Progress Report Nr. - 1 19 
(MIT, 1977) ,Sei ten 100, 101). Der dort angegebene Weg sieht vor, tiefpaBgefil- 
terte Sprache zu verbessern, Indem fehlende spektrale Information allein em- 
pfangsseitig wieder eingesetzt wird. Wenn nur der niedrigfrequente Teil des Sig 
nals verfiigbar ist, soil es danach moglich sein, einen groBen Teil des fehlen- 
den hoherfrequenten Anteils aus der verfligbaren spektralen Energie zu bestim- 
men und damit die naturliche Sprache zu rekonstruieren. Ein wesentlicher Vorbe- 
halt besteht darin, da& dieses bekannte Verfahren insbesondere fiir stimmhafte 
Sprache befriedigend arbeitet, bei der diskrete Frequenzen und Amplituden von 
Formanten gut ausgebildet sind. Ein den Frequenzgang formendes Filter soil dazu 
mit Harmonischen der aus dem verfligbaren Signal gewonnenen Grundfrequenz ange- 
regt werden. Das erhaltene Signal mag zwar im Langzeitspektrum einem nicht band 
begrenzten Signal entsprechen; da jedoch der Vokaltrakt flir jeden Menschen in- 
dividuell ist und sich zudem bei jedem Laut andert, sind Uberzeugende Ergebnis- 
se dann nicht zu erwarten, wenn hohere zu erganzende Formanten laut- und spre- 
cherunabhangig zuzufiigen sind. 

Das Verfahren gemaB. der Erfindung ist durch folgende Verfahrensabschnitte ge- 
kennzeichnet: 

- aus Mustern des verfligbaren Sprachsignals werden Parameter X gewonnen; 

- von diesen Parametern _X werden Abstandeifczu Parametern/^ bestimmt - die 
Parameter A k liegen von jeweils einem eine ttquivalenzklasse von Lauten 
bandbegrenzter Sprache charakterisierenden Prototyp abgespeichert vor; 

- den Parametern A k entsprechende Parameter werden abgerufen - auch die . 
Parameter B k liegen von jeweils einem eine ttquivalenzklasse von Lauten cha- 
rakterisierenden Prototyp abgespeichert vor, jedoch von Sprache mit dem f Ur 
die vorgesehene Wiedergabe erforderlichen Spektrum; 

- unter Berlicksichtigung der Abstande X k zwischen den Parametern und den Pa- 
ramtern A k werden die Parameter J3 k zur Bildung der im verfligbaren Sprachsig- 
nal fehlenden spektralen Information herangezogen. 

Diese Verfahrensabschnitte kbnnen auch als ein Erkennungs- und ein Syntheseab- 

schnitt angesehen werden, bei denen aiif abgespeicherte Information zuriickge- 

griffen wird. Die Speichertechniken, die in engem Zusammenhang mit der Art des 

Syntheseverfahrens stehen, insbesondere jedoch die Informationsinhal te sind 

ndch folgenden Gesi chtspunkte zu bestimmen. 5 _ 
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Die Verwendung abgespeichert vorliegender Information, passend zum verfugbaren 
Sprachsignal , kommt mit einer Fil terung gema'B der Langzeitstatistik des Sprach- 
signals vieler Sprecher nicht aus. Deshalb wird - ahnlich wie bei der Spracher- 
kennung, obwohl bei der Erfindung kein Spracherkennungsproblem im eigentlichen 
Sinne vorliegt - ftir die charakteristischen Laute und Lautgruppen der Sprache 
eine Klassif izierung vorgenommen. Prototypen solcher Squivalenzklassen lassen 
sich als Vektoren genligend genau festlegen, also speichern. An sich waren tech- 
nisch unrealistisch viele ttquivalenzklassen vorzusehen, urn bei der Erkennungs- 
phase die jeweils zutreffenden abgespeicherten Parameter bestimmen zu kbnnen. 
Das ist jedoch nicht erforderlich, d.h. die Zahl der fiquivalenzklassen kann 
auf weniger als 20, evtl. weniger als 10, beschrankt bleiben, weil die ftir das 
erfindungsgemaBe Verfahren kennzeichnende Abstandsbestimmung der Parameter des 
Sprachmusters von den abgespeicherten Parametern von Prototypen einer Zerle- 
gung in Parameter-Komponenten gleichkommt bzw. als Erkennung resul tierender 
abgespeicherter Parameter anzusehen ist. Sodann ergibt sich die Syn these vom 
Grundsatz her aus einer Assoziation aufgrund der Erkennung, bei der die ver- 
wendeten abgespeicherten Parameter durch eine feste Zuordnung zu den erkannten 
vorgegeben werden und die Qua! i tat der wiederzugebenden Sprache verbessern, 
weil von ihnen Laute bzw. Lautgruppen charakterisiert werden, die das flir die 
yorgesehene Wiedergabe erforderliche Spektrum besitzen. 

Sowohl flir den Abschnitt der Erkennung als auch den der Synthese ist eine ein- 
fache Minimum-Maximum-Entscheidung denkbar. Der technische Auf wand flir eine ent- 
sprechende Schaltung ist verh'al tnismaBig gering, erfordert jedoch - wie uben 
bereits erwahnt - bei hohen Qualitatsanforderungen an die wiederzugebende Spra- 
che eine groBe Zahl von Squivalenzklassen und damit groBe Speicher. Bevorzugte 
AusfUhrungsformen der Erfindung beruhen dagegen auf einem Mischen der durch die 
Erkennung bestimmten Anteile, aus denen sich die zur Qua! itatsverbesserung ver- 
wendete Zusatzinformation zusammensetzt. Diese Zusatzinformation kann sowohl 
bezuglich der Quantitat ihrer Anteile als auch im Verhaltnis zum Anteil des in 
die Wiedergabe einbezogenen ursprlinglich verfugbaren Sprachsignals bestimmt 
werden. Ein Fehlersignal , das bei der Gewinnung der Parameter aus dem Muster 
des verfugbaren Sprachsignals gebildet wird,. ermoglicht eine einf ache und wir- 
kungsvolle Synthese der Zusatzinformation. ■•.•-.* 
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Von ebenfalls wesentlicher Bedeutung flir Ausf iihrungsf ormen der Erfindung ist 
die Moglichkeit, den Anteil von Zusatzinformation in' der wiederzugebenden Spra- 
che in Abh'angigkeit von der Qualitat des verfugbaren Sprachsignals bestimmen 
zu konnen. Sofern namlich im verfligbaren Sprachsignal bereits spektrale Antei- 
le enthalten sind 9 die durch abgespeicherte Parameter von Kqui valenzklassen 
von Lauten bandbegrenzter Sprache nicht oder nicht genugend Berlicksichtigung 
finden wlirden, kann abhangig vom Verhaltnis der Energieh des verfugbaren Sprach- 
signals die wiederzugebende Sprache zusammengesetzt werden. 

Die Mischungsverhal tnisse, mit denen die abgespeicherten Prototypen zur Bildung 
der Zusatzinformation herangezogen werden, richten sich nicht nur schlechthin 
nach den Abstanden zwischen den in der Erkennungsphase miteinander verglichenen 
Parametern, es ist vorteilhaft, wenn mit wachsenden Abstanden die zur Bildung 
der Zusatzinformation heranzuziehenden Anteile uberproportional abnehmen. Die- 
se Ma3nahme wirkt sich qualitativ in Richtung einer Minimum-Maximum-Entschei- 
dung aus, ohne jedoch wirklich eine solche Entscheidung zu sein. 

Insbesondere im Hinblick auf neue Technologien elektronischer Baiielemente 
(VLSI = Very Large Scale Integration) sind die wirtschaftlich-technischeri Rand- 
bedingungen flir Ausf Iihrungsf ormen der Erfindung glinstig. Das Verfahren zur Ver- 
besserung der Wiedergabequal itat bandbegrenzt verfiigbarer Sprache kann dann 
nicht nur z.B. bei Rundf unksendern o,a. erfolgen, bei denen liber Telefon em- 
pfangene Sprache aufgenommen, in ihrer Qualitat verbessert und sodann ausge- 
sendet wird 5 es kann vor allem in Echtzeit und am Ort des Teilnehmers erfolgen. 

Im Zusammenhang mit dem in der Zeichnung dargestellten Blockschaltbild wird 
schematisch der Ablauf des Verfahrens gemHB der Erfindung naher erlautert: 

. Das verfligbare bandbegrenzte Sprachsignal ist mit s.j(t) bezeichnet. Es wird 
auBer zu einem Addierer (10) zu einem Filter (1) geflihrt. Dort erfolgt eine 
Parameterabschatzung, wobei es sich bei diesen - und den noch folgenden - Pa- 
rametern Jewells urn Energien in spektralen Kanalen oder urn Pradiktorkoeffizi- 
enten handelt. Diese Parameter X a die aus Mustern des verfugbaren bandbegrenz- 
ten Signals s^t) gewonnen wurden, werden in einem Abstandsbildner (2) mit Pa- 
ramtern A ^ verglichen, die aus einem Speicher (3a) liber einen Datenbus (4) zu- 
gefiihrt werden. Flir die einzelnen Abstande der Parameter X zu den Prototypen 
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von Rquivalenzklassen ergeben sich damit werte von denen abhangig em b - 
tender Multiplier (5) mit den aus eine* Speicher (3b) a ge rufenen a- 
rametern B„. die bezUgllch der Kquivalenzklassen, nicht jedoch hinsichtlich 
ihrer Vektortornponenten Ubereinstimmen, die el.nzelnen Anteile fur die an ei- 
nen, Addierer (6) passend gebildete Zusatzinfonnation bestirnmt wird In erne. 
Synthetisator (7) wird aus dieser Zusatzinfonnation ein Analogsignal geb Idet, 
das entweder (- nicht dargestellt -) direkt oder Uber einen Regelverstar er 
(9) zum oben bereits erwahnten Addierer (10) gelangt, an dessen Ausgang das 
in der Qualitat verbesserte wiederzugebende Signal s 2 (t) vorliegt. 

1st ein Regelverstarker (9) vorgesehen, wird in einem Mittelwertbestimmer (8) 
vom Signal s^t) z.B. das Verhaltnis der Energien 1. "Restband" ™r 
energie bestimmt und der Regelverstarker (9) entsprechend eingestel.lt. Unter 
"Restband" werden die spektralen Anteile verstanden, die nach der Dimensionie- 
rung der Rquivalenzklassen wiederzugebender und bandbegrenzter Sprache im un- 
gUnstigsten Fall zuzufugen sind. 

in Blockschaltbild ist auBerdem eine Verbindung zwischen dera Fitler (1) und 
dem Synthetisator (7) eingezeichnet. Diese Verbindung dient zur Obertragung,. 
eines Fehlersignals, das zur Erzeugung der Zusatzinfonnation benotigt wird. 

BegnUgt man sich mit Zusatzinfonnation . die nicht vollig sprecherunabhangig 
ist, kann noch eine zusatzliche grobe Klassifizierung - mannliche/weibl iche 
Stimme - vorgesehen werden. 

Handelt es sich bei den Parametern X, A k und B k um Pakorkoeffizienten, werden 
diese mit den, Eintreffen des Signals 8,(0 z.B. blockweise berechnet. Das kann 
sukzessiv aus den Korrelationskoeffizienten der Fehlerfolgen bei Vorwarts- und 
RUckwartspradiktion mit einem Pradiktionsfehl erf i Iter in Kaskadenform durchge- 
fUhrt werden. Sodann werden die Abstande * k - |7T-7T k l als RhnlichkeitsmaB des 
empfangenen Signals zu den vorhandenen Kquivalenzklassen ermittelt. Aus den 
TT* wird dann gemHB 

k 
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ein Parkorkoeffizientensatz flir das Restbandsignal erstellt, der '"item Syntheti- 
sator zugefiihrt wird. Im Falle der Beniitzung eines Pradi ktionsverfahrens em- 
pfiehlt sich die Verwendung der Parkorkoeffizienten, weil sich hierbei die 
Stabilitat der Synthese leicht gewahrleisten laBt, Der Synthetisator wird 
ebenfalls als Filter in Kaskadenform aufgebaut. Die Anregung erfolgt mit dem 
im Pradi ktionsfehl erf i Iter gewonnenen Fehlersignal. Dieses Beispiel zeigt eine 
Verwertung der bei der Erkennung gewonnenen AbstandsmaBe zur Berechnung der Pa- 
rameter flir die Synthese von Zusatzinformation, 

Bei einer Parametergewinnung im Frequenzbereich wird das Sprachsignal durch 
Bandpasse in z.B. 10 Unterbander aufgeteilt und die Energie in diesen Kanalen 
wird nach Gleichrichten und weiterer TiefpaBtf i 1 terung z.B. mit 25 Hz als Pa- 
rameter betrachtet. Als Fehlersignal ist (wie beim Voice-Excited-Vocoder) das 
Basisband z.B. bis ca. 1000 Hz verwendbar. Zur Synthese werden BandpaBf il ter 
mit dem Restbandsignal angeregt und nach Spitzenbegrenzung zur Vermeidung von 
Amplitudenschwankungen mit den Vocoder-Kanal-Signalen moduliert. Der Uriter- 
schied zum reinen Voice-Excited-Vocoder besteht darin, daB die Vocoder-Kanal- 
Signale nicht tibertragen werden, sondern als Parameter im folgenden Musterer- 
kennungsprozeB dienen. Dabei werden wiederum Abstande: or^ — os^ zu gespei- 
cherten Parametern flir Lautprototypen in bandbegrenztem Signal berechnet und 
daraus und aus gespeicherten Prototypen des breitbandigen oder des Restband- 
signal s neue Vocoder-Kanal-Signale entwickelt. 
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